빅데이터분석기사 22년 4회차

필기


1. 다음 중 HDFS에 대한 설명으로 맞는 것은?
  • 1
     Replication의 횟수는 내부에서 결정되며 사용자가 바꾸지 못한다.
  • 2
     ETL, NTFA가 상위 파일 시스템이다.
  • 3
     GFS와 동일한 소스코드를 사용한다.
  • 4
     네임노드는 삭제 데이터가 저장된 데이터노드를 관리한다.

2. 다음 중 분산 파일 시스템에 대한 설명으로 맞는 것은?
  • 1
     하나의 컴퓨팅 자원을 다수의 시스템에 연결하여 병목 현상의 문제가 있다.
  • 2
     비관계형 DB와 같은 의미를 지니며 대표적으로 NoSQL이 있다.
  • 3
     여러 컴퓨터를 하나의 서버 환경처럼 저장하는 것을 말한다.
  • 4
     대규모의 데이터가 아닌 양질의 소규모 데이터를 관리하기 위해 고안되었다.

3. 다음 중 인공지능 학습에 대한 설명으로 틀린 것은?
  • 1
     지도학습이란 데이터의 정답지가 주어진 상태로 학습하는 것을 말한다.
  • 2
     강화학습이란 특정 조건에서 최적의 행동을 선택하도록 하는 방법이다.
  • 3
     강인공지능이란 다양한 분야의 어떤 문제를 실제로 사고하고 학습하여 해결할 수 있는 컴퓨터 기반의 인공지능이다.
  • 4
     훌륭한 알고리즘을 보유하였다면 학습을 생략해도 된다.

4. 다음 중 DIKW 피라미드 요소 중 지혜(Wisdom)에 해당하는 예시로 맞는 것은?
  • 1
     A 마트의 상품은 B 마트보다 저렴할 것이다.
  • 2
     A 마트의 과일이 더 저렴하다.
  • 3
     A 마트의 과일은 100원, B 마트의 과일은 200원이다.
  • 4
     과일을 구매하려면 A 마트가 더 좋다.

5. 다음 중 '분석 로드맵 설정'시 우선순위로 고려해야 할 항목이 아닌 것은?
  • 1
     비즈니스 성과 및 ROI
  • 2
     시급성
  • 3
     분석 데이터 적용
  • 4
     전략적 중요도

6. 다음 중 빅데이터 분석 기획 절차로 맞는 것은?
ㄱ. 비지니스 이해 및 범위 설정
ㄴ. 프로젝트 위험 계획 수립
ㄷ. 프로젝트 정의
ㄹ. 프로젝트 수행 계획 수립
  • 1
     ㄷ>ㄱ>ㄴ>ㄹ
  • 2
     ㄷ>ㄱ>ㄹ>ㄴ
  • 3
     ㄱ>ㄷ>ㄹ>ㄴ
  • 4
     ㄱ>ㄷ>ㄴ>ㄹ

7. 다음 중 개인정보 비식별화에 대한 설명으로 틀린 것은?
  • 1
     비식별화는 개인을 알아볼 수 없도록 하는 조치를 말한다.
  • 2
     비식별 정보는 제3자 제공이 가능하며, 원칙적으로 불특정 다수에 대한 공개가 가능하다.
  • 3
     비식별 정보는 비식별 조치 후에도 모니터링과 기술적 보호조치를 수행해야 한다.
  • 4
     비식별 정보는 사전에 개인정보 해당 여부에 대하여 검토하고, 개인정보가 아닌 것은 활용 가능하도록 한다.

8. 다음 중 개인정보 비식별화 기술에 대한 설명으로 틀린 것은?
  • 1
     총계처리: 데이터의 총합 값으로 처리하여 개별 데이터의 값이 보이지 않도록 하는 기술
  • 2
     데이터 마스킹: 개인 식별에 중요한 데이터 값을 삭제하는 것
  • 3
     가명처리: 개인 식별에 중요한 데이터를 식별할 수 없는 다른 값으로 변경
  • 4
     범주화: 데이터의 값을 범주의 값으로 변환하여 값을 변경하는 기술

9. 다음 중 가트너가 정의한 빅데이터 처리 플랫폼 특징 중 3V에 정의된 것으로 틀린 것은?
  • 1
     가치(Value)
  • 2
     규모(Volume)
  • 3
     속도(Velocity)
  • 4
     다양성(Variety)

10. 다음 중 1제타바이트에 1byte의 아스키 코드를 넣으면 가능한 수용 크기로 맞는 것은?
  • 1
     2^10 byte
  • 2
     2^30 byte
  • 3
     2^50 byte
  • 4
     2^70 byte

11. 다음 중 아래에서 설명하는 개념으로 맞는 것은?
대표적인 빅데이터 분산처리 엔진으로, 하둡의 단점을 보완하기 위해 인메모리(In-Memory)기반의 데이터 처리 오픈소스 플랫폼
  • 1
     맵 리듀스(Map Reduce)
  • 2
     스파크(Spark)
  • 3
     하이브(Hive)
  • 4
     피그(Pig)

12. 다음 중 데이터 모델링 과정에서 수행하는 업무가 아닌 것은?
  • 1
     데이터 세트 분할
  • 2
     데이터 모형 모델링
  • 3
     프로젝트 성과 분석 및 평가 보고
  • 4
     모델 적용 및 운영 방안 수립

13. 다음 중 정형 데이터와 비정형 데이터에 대한 설명으로 맞는 것은?
  • 1
     동영상, 오디오 데이터는 정형 데이터에 속한다
  • 2
     정형과 반정형 성질을 둘 다 갖고 있는 것을 비정형 데이터라고 한다.
  • 3
     형태소는 정형 데이터를 분석하기 위한 단위이다.
  • 4
     XML은 반정형 데이터이다.

14. 다음 중 고품질 데이터의 특성이 아닌 것은?
  • 1
     정확성(Accuracy)
  • 2
     직시성(Timeliness)
  • 3
     불편의성(Un-completeness)
  • 4
     일관성(Consistency)

15. 다음 중 아래에서 설명하는 개념으로 맞는 것은?
시스템의 전방에 위치하여 클라이언트로부터 다양한 서비스를 처리하고, 백-엔드 서비스 간의 통신을 전달하는 미들웨어
  • 1
     API 게이트웨이
  • 2
     데이터베이스
  • 3
     PaaS
  • 4
     ESB

16. 다음 중 데이터 3법에 포함되는 법으로 틀린 것은?
  • 1
     개인정보보호법
  • 2
     정보통신산업진흥법
  • 3
     정보통신망 이용촉진 및 정보보호 등에 관한 법률
  • 4
     신용정보의 이용 및 보호에 관한 법률

17. 다음 중 공공 데이터 포털에서 제공하는 파일의 형식으로 틀린 것은?
  • 1
     XML
  • 2
     SQL
  • 3
     JSON
  • 4
     CSV

18. 다음 중 빅데이터 저장소와 관련한 개념으로 틀린 것은?
  • 1
     Data Lake
  • 2
     Data Warehouse
  • 3
     Data Mining
  • 4
     Data Dam

19. 다음 중 아래에서 설명하는 개념으로 맞는 것은?
데이터에 노이즈를 추가하여 개인정보보호와 데이터 분석을 모두 진행할 수 있는 기법
  • 1
     k-익명성
  • 2
     개인정보 차등보호
  • 3
     가명화
  • 4
     l-다양성

20. 다음 중 빅데이터 저장 기술로 맞는 것은?
  • 1
     맵리듀스
  • 2
     직렬화
  • 3
     가시화
  • 4
     NoSQL

21. 다음 중 시공간 데이터로 틀린 것은?
  • 1
     GIS 데이터
  • 2
     코로플로스 맵
  • 3
     패널 데이터
  • 4
     격자 데이터

22. 다음 중 기초 통계량의 대푯값과 관련한 설명으로 틀린 것은?
  • 1
     평균은 중앙값보다 이상값에 영향을 더 적게 받는다.
  • 2
     Q3-Q1을 사분위수 범위라고 한다.
  • 3
     변동률 등은 기하 평균으로 구한다.
  • 4
     변동계수는 자료의 단위와 관련이 있다.

23. 다음 중 이상값을 찾는 방법에 대한 설명으로 틀린 것은?
  • 1
     상자 그래프의 산점도 등에서 멀리 떨어진 값을 찾는다.
  • 2
     표준정규분포에서 표준편차가 3 이상인 값을 찾는다.
  • 3
     도메인 지식에서 이론적이나 물리적으로 맞지 않는 값을 찾는다.
  • 4
     가설 검정의 노이즈 값을 찾는다.

24. 다음 중 주성분 분석에 대한 설명으로 틀린 것은?
  • 1
     기존 변수들을 선형 결합하여 새로운 변수를 만든다.
  • 2
     주성분들이 설명하는 분산이 최대한 커지도록 한다.
  • 3
     데이터가 이산형, 연속형인 경우에 사용한다.
  • 4
     주성분 분석의 결과와 해석을 직관적으로 이해할 수 있다.

25. 다음 중 상관관계에 대한 설명으로 틀린 것은?
  • 1
     상관계수 값의 범위는 -1부터 1 사이에 있다.
  • 2
     상관계수의 절댓값이 0에 가까울수록 두 변수 간의 상관성이 적다.
  • 3
     상관계수는 결정계수 값의 제곱을 의미한다.
  • 4
     두 변수의 관계를 산점도로 알 수 있다.

26. 다음 중 아래에서 설명하는 내용으로 맞는 것은?
정규분포를 따르고 평균이 150, 분산이 16인 자료에 대하여 모든 자료에 (-150)/4의 스케일링을 적용하면 자료의 분포는 어떤 분포를 따르는가?
  • 1
     N(150,16)
  • 2
     N(0,1)
  • 3
     N(0,1/10)
  • 4
     N(0,1/100)

27. 다음 중 박스 플롯에서 3Q보다 항상 작은 값을 갖는 것은?
  • 1
     IQR 사분위수 범위
  • 2
     중앙값
  • 3
     80퍼센트
  • 4
     최댓값

28. 다음 중 비정형 텍스트 데이터 전처리 기법으로 틀린 것은?
  • 1
     Tokenizing
  • 2
     Crawling
  • 3
     pos tagging
  • 4
     stemming

29. 다음 중 아래에서 설명하는 개념으로 맞는 것은?
항목집합의 지지도를 산출하여 발생빈도와 최소지지도를 기반으로 거래 연관성을 밝히는 알고리즘
  • 1
     Apriori
  • 2
     인공신경망
  • 3
     의사결정나무
  • 4
     어간 추출

30. 다음 중 빅데이터 탐색에 대한 설명으로 틀린 것은?
  • 1
     빅데이터 전체 분포를 대략적으로 검토하는 과정이다.
  • 2
     데이터 분석 과정에서 최종 분석 결과를 도출한다.
  • 3
     데이터 탐색 시 잠재적 문제를 발견하는 과정이다.
  • 4
     데이터 탐색 시 데이터를 기반으로 패턴을 찾는 과정이다.

31. 다음 중 표준화와 자료 분포에 관한 설명으로 맞는 것은?
  • 1
     표준화는 각 요소에서 평균을 밴 값에 분산을 나눈다.
  • 2
     표준화된 자료의 최댓값은 1이다.
  • 3
     표준화된 자료의 표준편차는 0이다.
  • 4
     정규분포인 자료를 표준화 하면 표준정규분포를 따른다.

32. 다음 중 단위가 다른 두 데이터를 비교할 때, 단위에 영향을 받지 않는 변동성 척도 개념으로 맞는 것은?
  • 1
     범위(Range)
  • 2
     사분위범위(IQR)
  • 3
     변동계수(CV)
  • 4
     표준편차(Standard Deviation)

33. 다음 중 초기하 분포에 대한 설명으로 틀린 것은?
  • 1
     만약 복원 추출을 하는 경우 이항분포를 사용해야 한다.
  • 2
     비복원 추출로 인해 각 시행의 성공확률은 일정하지 않다.
  • 3
     각 시행의 성공 확률은 상호 독립적이다.
  • 4
     자료는 이산형 확률분포를 따른다.

34. 다음 중 텍스트 마이닝에서 문장을 2개 이상의 단어로 분리하는 방법으로 맞는 것은?
  • 1
     토픽 모델링
  • 2
     N-gram
  • 3
     TF-IDF
  • 4
     Dendrogram

35. 다음 중 선형회귀 모형의 가정에 대한 특성으로 틀린 것은?
  • 1
     독립성
  • 2
     정규성
  • 3
     등분산성
  • 4
     수렴성

36. 다음 중 아래에서 설명하는 내용의 빈칸에 들어갈 개념으로 맞는 것은?
비지도학습은 라벨링이 ( A ), 예시로는 ( B )이다.
비지도 학습이란 타깃 변수의 라벨링이 ( A ) 모형을 의미하며, 대표적인 모형 예시로는 ( B ) 가 있다.
  • 1
     A: 안된, B: 로지스틱 회귀 모형
  • 2
     A: 된, B: 로지스틱 회귀 모형
  • 3
     A: 안된, B: 군집 모형
  • 4
     A: 된, B: 군집 모형

37. 다음 중 인공신경망의 특징으로 틀린 것은?
  • 1
     다른 분석 모형에 비해 해석이 쉽다.
  • 2
     복잡한 비선형 문제에 적용 가능하다.
  • 3
     Tanh, ReLU 등의 활성화 함수로 기울기 소실문제를 해결하였다.
  • 4
     CNN, RNN 등 딥러닝 모형의 기초 토대가 되었다.

38. 다음 중 활성화 함수의 계단 함수가 수행하지 못하는 논리 문제로 옳은 것은?
  • 1
     AND
  • 2
     OR
  • 3
     NOR
  • 4
     XOR

39. 다음 중 오토 인코더(Auto Encoder)모형에 대한 설명으로 틀린 것은?
  • 1
     신경망을 활용한 비지도 학습 기법이다.
  • 2
     입력 특성 간 상관관계를 학습하여 출력을 재구성(Reconstruction)한다.
  • 3
     입력층의 뉴런 수는 은닉층의 뉴런 수보다 항상 작다.
  • 4
     인코드(Encode) 입력 수와 디코드(Decode)출력 수는 동일하다.

40. 다음 중 의사결정나무에 대한 설명으로 틀린 것은?
  • 1
     자식 노드의 가지 수가 하나만 남을 때까지 계속하여 학습을 진행한다.
  • 2
     지니 지수, 엔트로피 지수 등을 통해 분리규칙을 설정한다.
  • 3
     두 범주 간의 차이가 없다고 판단되면 분리를 멈춘다.
  • 4
     과적합을 방지하기 위해 가지치기(Pruning) 작업을 수행한다.

41. 다음 중 범주형 타깃 변수에 대한 분류 모형으로 틀린 것은?
  • 1
     인공신경망
  • 2
     선형회귀분석
  • 3
     서포트벡터
  • 4
     의사결정나무

42. 다음 중 아래에 설명하는 시계열의 특성 개념으로 옳은 것은?
중장기적인 특성을 가지며, 빈번한 발생 빈도 없이 특정 주기로 반복적인 패턴을 보이는 특성
  • 1
     추세
  • 2
     순환
  • 3
     계절
  • 4
     불규칙

43. 다음 중 선형회귀 모형에서 잔차의 특성으로 틀린 것은?
  • 1
     잔차의 선형성
  • 2
     잔차의 독립성
  • 3
     잔차의 등분산성
  • 4
     잔차의 정규성

44. 다음 중 재현율(Recall)에 대한 공식으로 옳은 것은?
  • 1
     FP/(TP+FP)
  • 2
     FP/(TP+FN)
  • 3
     TP/(TP+FP)
  • 4
     TP/(TP+FN)

45. 다음 중 불균형 데이터를 평가하기 위한 지표로 틀린 것은?
  • 1
     민감도
  • 2
     정확도
  • 3
     오분류율
  • 4
     ROC곡선

46. 기존 모형을 일반화 모형으로 확장하기 위해 연결함수가 필요하다. 다음 중 자연로그 함수를 연결함수로 사용하는 자료 분포로 맞는 것은?
  • 1
     정규분포
  • 2
     이항분포
  • 3
     감마분포
  • 4
     포아송분포

47. 다음 중 분석 모형 강화 및 융합 기법에 대한 설명으로 틀린 것은?
  • 1
     앙상블이란 여러 모형의 결과를 종합하여 좋은 성능을 내는 모형이다
  • 2
     배깅이란 부트스트랩 기반의 자료 집단을 생성하는 샘플링 기법이다.
  • 3
     랜덤 포레스트는 의사결정나무 모형에 부스팅을 적용하는 알고리즘으로 좋은 성능을 보인다.
  • 4
     부스팅은 하나의 약한 학습기를 가중치개선을 통해 점차 강력한 분류기로 만들어 가는 기법이다.

48. 다음 중 윌콕슨(Wilcoxon) 검정 모형에 대한 설명으로 틀린 것은?
  • 1
     윌콕슨 부호순위 검정은 특정 집단의 사전/사후 대응 비교를 위한 검정이다.
  • 2
     윌콕슨 순위합 검정은 서로 독립적인 두 집단의 처리효과 비교를 위한 검정이다.
  • 3
     윌콕슨 검정 모형은 중위수 비교를 통해 이루어진다.
  • 4
     윌콕슨 부호 순위 검정은 모집단의 분포가 대칭일 때 검정 가능하다.

49. 다음 중 배깅기법에 대한 설명으로 맞는 것은?
  • 1
     편향이 낮은 과소적합 모델에 대하여 규제 완화를 통해 성능을 높이는 기법
  • 2
     편향이 높은 과대적합 모델을 일반화 및 정규화 하는 기법
  • 3
     부트스트랩 기반의 표본 자료를 생성하고 각 부트스트랩 자료를 결합하여 최종 예측 모형을 산출하는 기법
  • 4
     가중치를 연속적으로 업데이트하여 약 분류기를 강 분류기로 만드는 기법

50. 다음 중 과대적합을 방지하기 위한 기법으로 틀린 것은?
  • 1
     Regularization
  • 2
     Gradient Vanishing
  • 3
     Drop Out
  • 4
     Max Pooling

51. 다음 중 시공간 시각화 기법으로 옳은 것은?
  • 1
     히스토그램
  • 2
     체르노프 페이스
  • 3
     카토그램
  • 4
     평행 좌표계

52. 다음 중 초매개변수의 최적화 기법으로 틀린 것은?
  • 1
     베이지안 최적화
  • 2
     그리드 탐색
  • 3
     랜덤 탐색
  • 4
     경사 하강법

53. 다음 중 아래 조건 하에 분류 모형 평가지표 산출에 대한 설명으로 옳은 것은?
y=0 혹은 y=1 값을 가지는 이진 분류 분석에서 실제 y=1(True)의 값이 y=0(False)값의 2배일 때 민감도, 이도, 정확도에 대한 설명으로 옳은 것을 고르시오.
  • 1
     민감도와 특이도 둘 다 1일때 정확도는 1이다.
  • 2
     특이도가 1일 때 정확도는 1/2이다.
  • 3
     민감도가 1/2일 때 정확도는 1/2이다.
  • 4
     민감도와 특이도가 같을 때 정확도도 특이도와 같다.

54. 다음 중 홀드아웃기법을 통해 나눠진 데이터 종류로 틀린 것은?
  • 1
     테스트 데이터
  • 2
     검증 데이터
  • 3
     학습 데이터
  • 4
     증강 데이터

55. 다음 중 시각화 기법 종류에서 비교 시각화 기법이 아닌 것은?
  • 1
     막대 그래프
  • 2
     레이더 차트
  • 3
     히트맵
  • 4
     산점도

56. 포아송분포가 맞는지 적합도 검정을 수행할 시, 보기 중 맞는 설명은?
ㄱ. 검정을 위해 하루에 몇 회인지 평균을 구해야 한다.
ㄴ. 카이제곱 값이 클수록 귀무가설을 기각한다.
ㄷ. 귀무가설은 관측값이 포아송분포를 따른다.
  • 1
     ㄱ, ㄴ
  • 2
     ㄱ, ㄷ
  • 3
     ㄴ, ㄷ
  • 4
     ㄱ, ㄴ, ㄷ

57. 분류 모형 평가에서 부트스트랩을 사용하여 훈련용 데이터 선정을 충분히 한다고 가정할 때, 다음 중 전체 관측치 중 훈련용 데이터 세트 비율로 가장 옳은 것은?
  • 1
     60.0%
  • 2
     82.5%
  • 3
     40.5%
  • 4
     30.0%

58. 다음 중 아래 설명에서 나타내고 있는 경사하강법(Gradient Descent)기법으로 옳은 것은?
모멘텀 방식과 AdaGrad를 결합한 방식으로, 가속도와 학습률 조정을 동시에 적용한 알고리즘이다.
  • 1
     RMSProp
  • 2
     BGD
  • 3
     Adam
  • 4
     SGD

59. 다음 중 효과적인 인포그래픽의 조건으로 틀린 것은?
  • 1
     메시지를 구체적, 실용적으로 전달한다.
  • 2
     그래픽 안에 최대한 많은 정보를 담는다.
  • 3
     스토리를 적절히 담아내어 설득력 있는 정보를 구성한다.
  • 4
     객관적 정보와 더불어 표현하고자 하는 바를 시각적으로 활용하여 전달한다.

60. 다음 중 1:n-1(검증:훈련) 비유로 수행되는 k-fold에 대한 설명 중 틀린 것은?
  • 1
     데이터셋을 검증용:훈련용 비율로 1:k-1 의 비율로 나눈다.
  • 2
     k값은 항상 3이상이어야 한다.
  • 3
     연산에 시간이 오래 소요되나 좋은 성능을 내는 장점이 있다.
  • 4
     모든 데이터셋을 훈련과 검증에 활용할 수 있다.

61. 다음 중 히스토그램의 특징으로 틀린 것은?
  • 1
     이산적, 연속적인 자료에 활용 가능하다.
  • 2
     히스토그램은 시계열 자료를 표현하기에 적합하다.
  • 3
     자료의 대략적 분포를 알 수 있다.
  • 4
     누적 히스토그램은 누적 빈도함수의 개형과 유사하다.

62. 다음 중 아래 설명에 대한 개념으로 옳은 것은?
FN은 정답이 경우 (1, True)를 우리가 정답이 아닌 것으로(0, Negative)로 예측한다. 그렇다면 TP가 의미하는 것으로 옳은 것은?
  • 1
     실제 1, 예측 1
  • 2
     실제 0, 예측 1
  • 3
     실제1, 예측 0
  • 4
     실제 0, 예측 0

63. 다음 중 아래 순서는 빅데이터 모델링을 진행하는 순서이다. 빈칸에 들어갈 개념으로 옳은 것은?
문제정의 > 표준화 > (            ) > 일반화
  • 1
     최적화
  • 2
     정규화
  • 3
     합리화
  • 4
     확산화

64. 다음 중 분석 결과 활용 시나리오 적용을 해야 하는 이유로 틀린 것은?
  • 1
     활용 가능 분야를 파악하기 위해
  • 2
     활용 서비스 영역을 개발하기 위해
  • 3
     가치사슬 모형을 통해 활용 효과를 탐색하기 위해
  • 4
     작업관리를 효율적으로 하기 위해

65. 다음 중 분석모형 리모델링 및 활용 과정별 명칭과 그 내용에 대하여 틀린 것은?
  • 1
     최적화 - 조건이나 가중치 변화 시 계수값 조정 및 제약조건 추가
  • 2
     정규화 - 데이터 단위와 분포를 정규화
  • 3
     데이터 마이닝 - 최신 데이터 적용 및 분석 모형 재조정
  • 4
     시뮬레이션 - 최신 데이터 적용 및 변수 추가 방식으로 분석 모형 재조정

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2026 뉴비티::새로운 CBT 시스템 - newbt.kr (Listed on LeanVibe)